1 research outputs found

    Utility-Preserving Anonymization of Textual Documents

    Get PDF
    Cada dia els 茅ssers humans afegim una gran quantitat de dades a Internet, tals com piulades, opinions, fotos i v铆deos. Les organitzacions que recullen aquestes dades tan diverses n'extreuen informaci贸 per tal de millorar llurs serveis o b茅 per a prop貌sits comercials. Tanmateix, si les dades recollides contenen informaci贸 personal sensible, hom no les pot compartir amb tercers ni les pot publicar sense el consentiment o una protecci贸 adequada dels subjectes de les dades. Els mecanismes de preservaci贸 de la privadesa forneixen maneres de sanejar les dades per tal que no revelin identitats o atributs confidencials. S'ha proposat una gran varietat de mecanismes per anonimitzar bases de dades estructurades amb atributs num猫rics i categ貌rics; en canvi, la protecci贸 autom脿tica de dades textuals no estructurades ha rebut molta menys atenci贸. En general, l'anonimitzaci贸 de dades textuals exigeix, primer, detectar trossos del text que poden revelar informaci贸 sensible i, despr茅s, emmascarar aquests trossos mitjan莽ant supressi贸 o generalitzaci贸. En aquesta tesi fem servir diverses tecnologies per anonimitzar documents textuals. De primer, millorem les t猫cniques existents basades en etiquetatge de seq眉猫ncies. Despr茅s, estenem aquestes t猫cniques per alinear-les millor amb el risc de revelaci贸 i amb les exig猫ncies de privadesa. Finalment, proposem un marc complet basat en models d'immersi贸 de paraules que captura un concepte m茅s ampli de protecci贸 de dades i que forneix una protecci贸 flexible guiada per les exig猫ncies de privadesa. Tamb茅 recorrem a les ontologies per preservar la utilitat del text emmascarat, 茅s a dir, la seva sem脿ntica i la seva llegibilitat. La nostra experimentaci贸 extensa i detallada mostra que els nostres m猫todes superen els m猫todes existents a l'hora de proporcionar anonimitzaci贸 robusta tot preservant raonablement la utilitat del text protegit.Cada d铆a las personas a帽adimos una gran cantidad de datos a Internet, tales como tweets, opiniones, fotos y v铆deos. Las organizaciones que recogen dichos datos los usan para extraer informaci贸n para mejorar sus servicios o para prop贸sitos comerciales. Sin embargo, si los datos recogidos contienen informaci贸n personal sensible, no pueden compartirse ni publicarse sin el consentimiento o una protecci贸n adecuada de los sujetos de los datos. Los mecanismos de protecci贸n de la privacidad proporcionan maneras de sanear los datos de forma que no revelen identidades ni atributos confidenciales. Se ha propuesto una gran variedad de mecanismos para anonimizar bases de datos estructuradas con atributos num茅ricos y categ贸ricos; en cambio, la protecci贸n autom谩tica de datos textuales no estructurados ha recibido mucha menos atenci贸n. En general, la anonimizaci贸n de datos textuales requiere, primero, detectar trozos de texto que puedan revelar informaci贸n sensible, para luego enmascarar dichos trozos mediante supresi贸n o generalizaci贸n. En este trabajo empleamos varias tecnolog铆as para anonimizar documentos textuales. Primero mejoramos las t茅cnicas existentes basadas en etiquetaje de secuencias. Posteriormente las extendmos para alinearlas mejor con la noci贸n de riesgo de revelaci贸n y con los requisitos de privacidad. Finalmente, proponemos un marco completo basado en modelos de inmersi贸n de palabras que captura una noci贸n m谩s amplia de protecci贸n de datos y ofrece protecci贸n flexible guiada por los requisitos de privacidad. Tambi茅n recurrimos a las ontolog铆as para preservar la utilidad del texto enmascarado, es decir, su semantica y legibilidad. Nuestra experimentaci贸n extensa y detallada muestra que nuestros m茅todos superan a los existentes a la hora de proporcionar una anonimizaci贸n m谩s robusta al tiempo que se preserva razonablemente la utilidad del texto protegido.Every day, people post a significant amount of data on the Internet, such as tweets, reviews, photos, and videos. Organizations collecting these types of data use them to extract information in order to improve their services or for commercial purposes. Yet, if the collected data contain sensitive personal information, they cannot be shared with third parties or released publicly without consent or adequate protection of the data subjects. Privacy-preserving mechanisms provide ways to sanitize data so that identities and/or confidential attributes are not disclosed. A great variety of mechanisms have been proposed to anonymize structured databases with numerical and categorical attributes; however, automatically protecting unstructured textual data has received much less attention. In general, textual data anonymization requires, first, to detect pieces of text that may disclose sensitive information and, then, to mask those pieces via suppression or generalization. In this work, we leverage several technologies to anonymize textual documents. We first improve state-of-the-art techniques based on sequence labeling. After that, we extend them to make them more aligned with the notion of privacy risk and the privacy requirements. Finally, we propose a complete framework based on word embedding models that captures a broader notion of data protection and provides flexible protection driven by privacy requirements. We also leverage ontologies to preserve the utility of the masked text, that is, its semantics and readability. Extensive experimental results show that our methods outperform the state of the art by providing more robust anonymization while reasonably preserving the utility of the protected outcome
    corecore